Več kot umetna inteligenca vé, bolj je nezanesljiva

avtor:

K. L.

24. maj 2025. 12:50

| Digitalno

komentarjev

Deli

Poskusi kažejo, da najnovejši modeli ChatGPT kažejo izrazito nagnjenost k haluciniranju - izmišljanju dejstev.

Zgodovina je polna briljantnih, a nezanesljivih posameznikov – ta lastnost pa očitno umetni inteligenci ni tuja, piše portal Zimo.

Po preiskavi, ki jo je izvedel OpenAI in delil z The New York Timesom, najnovejši modeli umetne inteligence ChatGPT, GPT- o3 in o4-mini, kažejo izrazito nagnjenost k halucinacijam – torej izmišljanju dejstev.

Odlično razmišljanje, a še več napak

Modela GPT-o3 in o4-mini sta zasnovana tako, da bolj kot predhodniki posnemata človeško razmišljanje.

Starejše različice so bile bolj osredotočene na tekoče ustvarjanje besedil, medtem ko naj bi nove različice vključevale kompleksnejšo analitiko in sklepanja.

OpenAI navaja, da je bil predhodni model o1 sposoben dosegati ali presegati uspešnost doktorandov iz kemije, biologije in matematike.

Vendar pa so rezultati najnovejših modelov sprožili zaskrbljenost.

Tudi do polovica podatkov izmišljenih

V testu, ki je vključeval odgovore o znanih osebnostih, je GPT-o3 haluciniral v tretjini primerov, kar je dvakrat več kot model o1.

Manjši model o4-mini je bil še manj zanesljiv, saj so v kar 48 odstotkih primerov odgovori vsebovali izmišljene podatke.

Na preizkusu SimpleQA (preprosta vprašanja in odgovori - op.a.), ki preverja splošno znanje, so bile številke še višje: 51 odstotkov netočnih odgovorov pri GPT-o3 in 79 odstotkov pri o4-mini, poroča portal Tech Radar.

Boljše razmišljanje – več prostora za napake?

Med strokovnjaki za umetno inteligenco se vse bolj uveljavlja hipoteza, da večja kot je sposobnost modela za sklepanje, večja je verjetnost za napake.

Starejši, enostavnejši modeli so se držali bolj samozavestnih napovedi, medtem ko novejši raziskujejo več možnih poti in improvizirajo – kar povečuje nevarnost prehoda iz sklepanja v fikcijo.

OpenAI za Times dodaja, da povečano število halucinacij morda ni posledica samo bolj zapletenega sklepanja, ampak tudi daljših, bolj razvejanih odgovorov.

Več ko modeli ugibajo, bolj se zabriše meja med teorijo in domišljijo.

Ko natančnost postane ključna

To postaja še posebej problematično, saj se umetna inteligenca danes uporablja v šolah, pisarnah, bolnišnicah in javni upravi.

GPT-o3, kljub zmožnosti reševanja zahtevnih nalog, izgublja kredibilnost, ko začne generirati napačne podatke – denimo trditev, da je Abraham Lincoln vodil podkast.

Umetna inteligenca, katere naloga je pomagati človeku in mu olajšati delo, ne sme postati vir napak, saj s tem lahko povzroči še več zmede in dodatno oteži delo, ki bi ga moral olajšati.

Noben odgovor ne bi smel veljati za "sveto resnico"

OpenAI in konkurenti, kot sta Google in Anthropic, si prizadevajo izboljšati natančnost modelov.

A do takrat odgovornost ostaja na plečih uporabnikov, da odgovore umetne inteligence jemljejo z rezervo in jih kritično preverjajo. Noben odgovor umetne inteligence namreč ne bi smel biti sprejet kot "sveta resnica", še piše portal.